Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
我们考虑对对抗性马尔可夫决策过程(AMDP)的遗憾最小化,其中损失功能随着时间的流逝而变化和对抗性,学习者仅观察访问的国家行动对的损失(即强盗反馈)。尽管使用在线培训(OMD)方法对此问题进行了大量研究,但对以下扰动领导者(FTPL)方法的了解很少,这些方法通常在计算上更有效,并且更易于实施仅仅需要解决离线计划问题。以此为激励,我们仔细研究了从标准的情节有限摩托设置开始学习AMDP的FTPL。我们在分析中发现了一些独特而有趣的困难,并提出解决方法,最终表明FTPL在这种情况下也能够达到近乎最佳的遗憾界限。更重要的是,我们然后找到两个重要的应用:首先,FTPL的分析很容易被延迟的匪徒反馈和订单最佳的遗憾,而OMD方法则表现出额外的困难(Jin等,2022)。其次,使用FTPL,我们还开发了第一个用于学习在无限 - 摩恩环境中通过匪徒反馈和随机过渡的无限 - 马设置中通信AMDP的NO-Regret算法。我们的算法是有效的,假设访问离线规划Oracle,即使为了易于全信息设置,唯一的现有算法(Chandrasekaran和Tewari,2021年)在计算上效率低下。
translated by 谷歌翻译
人类运动理解和预测是我们追求机器智能和人机交互系统的一体化方面。目前的方法通常追求运动学建模方法,严重依赖于先前的解剖知识和限制。然而,这种方法难以推广到不同的骨骼模型表示,并且在核对动态范围和运动复杂性的情况下也倾向于不足,从而阻碍了预测的准确性。在这项工作中,我们提出了一种基于随机微分方程和路径积分建模运动预测问题的新方法。每个骨骼接头的运动轮廓配制为基本随机变量,并用Langevin方程建模。我们制定采用GANS模拟路径积分的策略,这些路径集成量可优化未来的未来路径。我们在两个大型基准数据集,人3.6M和CMU Mocap进行实验。它强调,我们的方法平均地实现了当前最先进的方法的12.48%的准确性改进。
translated by 谷歌翻译
我们为随机最短路径(SSP)问题引入了两个新的无悔算法,其线性MDP显着改善了唯一的现有结果(Vial等,2021)。我们的第一算法是计算上的效率,实现了遗憾的绑定$ \ wideetilde {o} \ left(\ sqrt {d ^ 3b _ {\ star} ^ 2t _ {\ star} k}右)$,其中$ d $是维度特征空间,$ B _ {\ star} $和$ t _ {\ star} $分别是预期成本的上限,分别击中最佳政策的时间,$ k $是剧集的数量。具有略微修改的相同算法也实现了对数为OR o \ lex的对数后悔(\ frac {d ^ 3b _ {\ star} ^ 4} {c _ {\ min} ^ 2 \ text {gap} _ {\ min}} \ ln ^ 5 \ frac {db _ {\ star}} {c _ {\ min}} \右)$,其中$ \ text {gap} _ {\ min} $是最小的子项目差距和$ c_ { \ min} $是所有国家动作对的最低成本。我们的结果是通过开发更简单和改进的分析(Cohen等人,2021)的有限范围的分析而具有较小的近似误差,这可能具有独立兴趣。另一方面,在全局优化问题中使用方差感知的信心集,我们的第二算法是计算效率低下的,但实现了第一个“免费”后悔绑定$ \ widetilde {o}(d ^ {3.5} b _ {\ star } \ sqrt {k})$与$ t _ {\ star} $或$ 1 / c _ {\ min} $,几乎匹配$ \ omega(db _ {\ star} \ sqrt {k})$较低(Min等,2021)的绑定。
translated by 谷歌翻译
我们介绍了一个通用模板,用于在随机最短路径(SSP)模型中开发遗憾最小化算法,只要确保某些特性,就可以实现最佳的最佳遗憾。我们分析的关键是一种称为隐含的有限范围近似的新技术,其仅在没有明确实现的情况下在分析中近似于分析的Unite-Horizo n对应。使用此模板,我们开发了两个新的算法:第一个是无模型的(文献中的第一个在我们的知识中),并且在严格的积极成本下最佳最佳状态;即使使用零成本状态 - 动作对,第二个是基于模型的和最小的最佳状态,匹配来自[Tarbouriech等,2021b]的最佳现有结果。重要的是,这两个算法都承认高度稀疏的更新,使得它们比所有现有算法更有效。此外,两者都可以完全无参数。
translated by 谷歌翻译
在预测 - 优化框架中,目的是训练预测模型,从环境特征映射到优化问题的参数,这使得当优化被求解时最大化判定质量。最近的决定学习的工作表明,与依赖于用于评估预测质量的中间损耗功能相比,嵌入训练管道中的优化问题可以提高判定质量,并帮助更好地提高未经任务的任务。我们研究了通过增强学习解决的顺序决策问题(制定为MDP)的上下文中的预测 - 优化框架。特别是,我们是给予的环境特征和来自训练MDP的一组轨迹,我们用于训练推广的预测模型,无需轨迹。在将决策的学习应用于MDPS上,出现了两个重要的计算挑战:(i)大状态和行动空间使现有技术可行,以区分通过MDP问题,并且(ii)是由神经的参数化的高维策略空间网络,通过昂贵的政策进行区分。我们通过采样可释放的无偏见的衍生物来解决第一挑战,以通过最优条件近似和分辨,并通过使用基于高维样本的衍生物的低秩近似来分辨。我们在缺少参数的三个不同MDP问题上实现了基于Bellman的基于政策梯度的决定学习,并表明,决定的学习在概括任务中表现更好。
translated by 谷歌翻译
我们解决了经典专家问题的长期“不可能的调整”问题,并表明,实际上可能实现后悔$ o \ lex(\ sqrt {(\ ln d)\ sum_t \ ell_ {t,i} ^ 2} \ \右)同时为所有专家$ i $ t-$-t-$ -round $ d $ -expert问题在哪里$ \ ell_ {t,i} $是专家$ i $的损失$ t $ 。我们的算法基于镜像血迹框架,具有校正项和加权熵规范器。虽然自然,但之前尚未研究该算法,并且需要仔细分析。对于任何预测向量$ M_T,我们还概括了refton to $ o reft(\ sqrt {(\ ln d)\ sum_t(\ ell_ {t,i})^ 2} \右)$ $ Cylayer通过选择不同的$ M_T $来收到学习者,并恢复或改善许多现有结果。此外,我们使用相同的框架来创建一个组合一组基础算法的主算法,并学习最好的一个开销。我们的主人的新保证使我们能够为专家问题提供许多新的结果,并且更广泛的在线线性优化。
translated by 谷歌翻译
在对抗环境中识别有说服力的扬声器是一项关键任务。在全国选举中,政客们希望代表他们有说服力的发言人。当一家公司面临不利的宣传时,他们希望在对他们批评的对手存在的对手存在中,他们希望有说服力的倡导者。辩论代表了这些形式的对抗性劝说的共同平台。本文解决了两个问题:辩论结果预测(DOP)问题预测谁赢得了辩论的争论,而劝说预测强度(IPP)问题预测发言者发言前后投票数量的变化。虽然DOP先前已经研究过,但我们是第一个研究IPP的研究。关于DOP的过去的研究未能利用多模式数据的两个重要方面:1)多种方式通常是语义对齐,而2)不同的方式可以提供用于预测的不同信息。我们的M2P2(多模式说服预测)框架是第一个使用多模式(声学,视觉,语言)数据来解决IPP问题的框架。为了利用不同方式的对准,同时保持所提供的提示的多样性,M2P2设计了一种新的自适应融合学习框架,其保留了从两个模块获得的嵌入式的嵌入式 - 一种对准模块,其提取模态和学习的异构性模块之间的共享信息。具有三种单独培训的单峰参考模型的指导的不同方式的重量。我们在为DOP设计的流行IQ2US数据集中测试M2P2。我们还介绍了一个名为QPS的新数据集(来自QIPASHUO,一个受欢迎的中国辩论电视节目)为IPP。 M2P2显着优于两个数据集上的4个最近基线。
translated by 谷歌翻译
Most existing text-video retrieval methods focus on cross-modal matching between the visual content of offline videos and textual query sentences. However, in real scenarios, online videos are frequently accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This inspires us to generate associated captions from offline videos to help with existing text-video retrieval methods. To do so, we propose to use the zero-shot video captioner with knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate captions for offline videos without any training. Given the captions, one question naturally arises: what can auxiliary captions do for text-video retrieval? In this paper, we present a novel framework Cap4Video, which makes use of captions from three aspects: i) Input data: The video and captions can form new video-caption pairs as data augmentation for training. ii) Feature interaction: We perform feature interaction between video and caption to yield enhanced video representations. iii) Output score: The Query-Caption matching branch can be complementary to the original Query-Video matching branch for text-video retrieval. We conduct thorough ablation studies to demonstrate the effectiveness of our method. Without any post-processing, our Cap4Video achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%).
translated by 谷歌翻译
Vision-language models (VLMs) that are pre-trained on large-scale image-text pairs have demonstrated impressive transferability on a wide range of visual tasks. Transferring knowledge from such powerful pre-trained VLMs is emerging as a promising direction for building effective video recognition models. However, the current exploration is still limited. In our opinion, the greatest charm of pre-trained vision-language models is to build a bridge between visual and textual domains. In this paper, we present a novel framework called BIKE which utilizes the cross-modal bridge to explore bidirectional knowledge: i) We propose a Video Attribute Association mechanism which leverages the Video-to-Text knowledge to generate textual auxiliary attributes to complement video recognition. ii) We also present a Temporal Concept Spotting mechanism which uses the Text-to-Video expertise to capture temporal saliency in a parameter-free manner to yield enhanced video representation. The extensive studies on popular video datasets (ie, Kinetics-400 & 600, UCF-101, HMDB-51 and ActivityNet) show that our method achieves state-of-the-art performance in most recognition scenarios, eg, general, zero-shot, and few-shot video recognition. To the best of our knowledge, our best model achieves a state-of-the-art accuracy of 88.4% on challenging Kinetics-400 with the released CLIP pre-trained model.
translated by 谷歌翻译